Deep neural networks are susceptible to shortcut learning, using simple features to achieve low training loss without discovering essential semantic structure. Contrary to prior belief, we show that generative models alone are not sufficient to prevent shortcut learning, despite an incentive to recover a more comprehensive representation of the data than discriminative approaches. However, we observe that shortcuts are preferentially encoded with minimal information, a fact that generative models can exploit to mitigate shortcut learning. In particular, we propose Chroma-VAE, a two-pronged approach where a VAE classifier is initially trained to isolate the shortcut in a small latent subspace, allowing a secondary classifier to be trained on the complementary, shortcut-free latent subspace. In addition to demonstrating the efficacy of Chroma-VAE on benchmark and real-world shortcut learning tasks, our work highlights the potential for manipulating the latent space of generative classifiers to isolate or interpret specific correlations.
translated by 谷歌翻译
知识蒸馏是一种培训小型学生网络的流行技术,以模仿更大的教师模型,例如网络的集合。我们表明,虽然知识蒸馏可以改善学生泛化,但它通常不得如此普遍地工作:虽然在教师和学生的预测分布之间,甚至在学生容量的情况下,通常仍然存在令人惊讶的差异完美地匹配老师。我们认为优化的困难是为什么学生无法与老师匹配的关键原因。我们还展示了用于蒸馏的数据集的细节如何在学生与老师匹配的紧密关系中发挥作用 - 以及教师矛盾的教师并不总是导致更好的学生泛化。
translated by 谷歌翻译
Image-text multimodal representation learning aligns data across modalities and enables important medical applications, e.g., image classification, visual grounding, and cross-modal retrieval. In this work, we establish a connection between multimodal representation learning and multiple instance learning. Based on this connection, we propose a generic framework for constructing permutation-invariant score functions with many existing multimodal representation learning approaches as special cases. Furthermore, we use the framework to derive a novel contrastive learning approach and demonstrate that our method achieves state-of-the-art results on a number of downstream tasks.
translated by 谷歌翻译
统计监督的学习框架假设了一个输入输出集,其联合概率分布可可靠地由培训数据集表示。然后,要求学习者从培训数据集的输入输出对中输出从培训数据集的输入规则。在这项工作中,我们在机器学习的背景下,我们提供了对渐近式式属性属性(AEP)\ citep {Shannon:1948}的有意义的见解,并阐明了其一些潜在的后果,以实现几次学习。我们为信息理论AEP下的可靠学习提供了理论保证,以及相对于样本量的概括错误。然后,我们专注于高效的复发性神经网(RNN)框架,并提出了用于几次学习的降低渗透算法。我们还提出了RNN的数学直觉,作为稀疏编码求解器的近似值。我们通过图像脱张和光学相干断层扫描(OCT)示例验证所提出方法的适用性,鲁棒性和计算效率。我们的实验结果表明,改善学习模型的样本效率,概括和时间复杂性的显着潜力,因此可以利用实时应用。
translated by 谷歌翻译
机器人系统的远程操作用于精确而精致的物体抓握需要高保真的触觉反馈,以获取有关抓握的全面实时信息。在这种情况下,最常见的方法是使用动力学反馈。但是,单个接触点信息不足以检测软件的动态变化形状。本文提出了一个新型的远程触发系统,该系统可为用户的手提供动感和皮肤刺激,以通过灵敏地操纵可变形物体(即移液器)来实现准确的液体分配。实验结果表明,为用户提供多模式触觉反馈的建议方法大大提高了用远程移液器的剂量质量。与纯视觉反馈相比,当用户用多模式触觉界面与视觉反馈混合使用多模式触觉接口时,相对给药误差减少了66 \%,任务执行时间减少了18 \%。在CoVID-19,化学实验,有机材料和伸缩性的抗体测试期间,可以在精致的给药程序中实施该提出的技术。
translated by 谷歌翻译
在术前设置中,使用了数字重建的X光片(DRR)来解决诸如切片到体积注册和3D重建之类的反问题。在术中成像中,DRR的实用性受到实时生成它们的挑战的限制,并支持依赖重复的DRR合成的优化程序。尽管通过算法改进和GPU实现加速了DRR的生成,但基于DRR的优化仍然很慢,因为大多数DRR发电机没有提供有关成像参数的梯度的直接方法。为了使DRR与基于梯度的优化和深度学习框架互操作,我们重新重新制定了Siddon的方法,Siddon的方法是DRR生成中使用的最流行的射线追踪算法,作为一系列矢量化的张量操作。我们在Pytorch中实现了Siddon方法的矢量化版本,利用了图书馆的强大自动分化引擎,使该DRR发电机相对于其参数完全可区分。此外,使用GPU加速张量计算使我们的矢量实现能够实现与CUDA和C ++实现的最新DRR发电机相同的渲染速度。我们在切片到体积注册的上下文中说明了所得的方法。此外,我们的模拟表明,在最佳解决方案附近,切片到体积注册问题的损失景观是凸的,基于梯度的注册有望比普遍的无梯度优化策略更快。提出的DRR发电机使快速的计算机视觉算法能够在微创过程中支持图像指导。我们的实施公开可在https://github.com/v715/diffdrr上获得。
translated by 谷歌翻译
使用深度学习对胸部射线照相的自动分析具有巨大的潜力,可以增强患者疾病的临床诊断。但是,深度学习模型通常需要大量的带注释的数据来实现高性能 - 通常是医疗领域适应的障碍。在本文中,我们构建了一个利用放射学报告来通过有限的标记数据(少于1000个示例)来改善医学图像分类性能,以提高医学图像分类性能。具体而言,我们检查了捕获图像预告片,以学习以更少的例子进行训练的高质量医学图像表示。在对卷积编码器和变压器解码器进行联合预测之后,我们将学习的编码器转移到各种分类任务中。平均9多种病理学,我们发现我们的模型在标记培训数据受到限制时,比参见和内域监督的预处理的分类性能更高。
translated by 谷歌翻译
血氧水平依赖性(BOLD)用母体高氧可以评估胎盘内的氧运输,并已成为研究胎盘功能的有前途的工具。测量信号随着时间的变化需要在时间序列的每个体积中分割胎盘。由于大胆的时间序列中的数量大量,现有研究依靠注册将所有卷映射到手动分段模板。由于胎盘由于胎儿运动,母体运动和收缩而导致大变形,因此这种方法通常会导致大量废弃体积,而注册方法失败。在这项工作中,我们提出了一个基于U-NET神经网络体系结构的机器学习模型,以自动以粗体MRI分割胎盘,并将其应用于时间序列中的每个卷。我们使用边界加权损失函数来准确捕获胎盘形状。我们的模型经过训练和测试,并在91位包含健康胎儿的受试者,胎儿生长限制的胎儿以及BMI高的母亲中进行了测试。当与地面真实标签匹配时,我们的骰子得分为0.83 +/- 0.04,并且我们的模型在粗体时间序列中可靠地分割量氧和高氧点的量。我们的代码和训练有素的模型可在https://github.com/mabulnaga/automatic-placenta-mentegation上获得。
translated by 谷歌翻译
结合是改善机器学习(ML)模型的一种流行而有效的方法。它不仅在古典ML中,而且证明了其价值,而且还证明了深度学习的价值。合奏提高了ML解决方案的质量和可信度,并允许估计不确定性。但是,它们以一个代价:深度学习模型的培训合奏吃了大量的计算资源。快照结合,沿着单个训练路径在合奏中收集模型。由于它仅一次进行训练,因此计算时间类似于一个模型的训练。但是,沿训练路径的模型质量是不同的:通常,如果没有过度拟合,则以后的模型更好。因此,模型具有不同的效用。我们的方法通过沿训练路径选择和加权合奏成员来改善快照结合。它依赖于训练时间的可能性,而无需查看标准堆叠方法的验证样本错误。时尚MNIST,CIFAR-10和CIFAR-100数据集的实验证据证明了拟议的加权合奏C.T.香草结合深度学习模型。
translated by 谷歌翻译
在几乎不可预测且通常严重的主题运动的情况下获得的多个MR Slices的胎儿大脑的体积重建是一项具有挑战性的任务,对切片转换的初始化非常敏感。我们建议使用经过合成转换数据训练的变压器提出了一种新型的切片到体积的注册方法,该数据将MR Slices的多个堆栈模拟为序列。通过注意机制,我们的模型会自动检测切片之间的相关性,并使用来自其他切片的信息预测一个切片的转换。我们还估计了基础3D卷,以帮助切片到体积的注册,并交替更新音量和转换以提高准确性。合成数据的结果表明,与现有的最新方法相比,我们的方法可实现较低的注册误差和更好的重建质量。还进行了使用现实世界中MRI数据的实验,以证明该模型在严重的胎儿运动下提高3D重建质量的能力。
translated by 谷歌翻译